在人工智能的众多应用中,对话式用户交互(Conversational User Interface, CUI)是其中的一个重要分支。国内外知名技术公司纷纷在CUI上布下重兵,在软件层面,虚拟助手类产品层出不穷;在硬件层面,智能音箱作为承载CUI的新品类不断涌现。同时,还有一大批优秀的创业公司也在纷纷抢占CUI的不同赛道。
在这些产品和服务的背后隐藏着一个共同的特点,即用CUI替代了大家熟知的图形用户界面 (Graphical User Interface, GUI)。为什么突然间CUI会受到如此青睐?它有什么特点?又面临哪些挑战?为什么与个性化推荐有重要的关系?笔者作为一家创业公司的创始人,结合过去两年的实战经验,提出一些浅见,供大家参考。
为什么对话式交互方式会突然流行?
严格地说,CUI技术并不是一种全新的交互方式。20世纪80年代,命令行作为一种原始的对话式交互方式就已经开始出现。人类通过键盘输入一些特殊的命令,计算机根据命令做一些内部运算后输出结果,人类再根据结果进行下一轮交互。然而,这种交互方式离普通人的生活还特别遥远。后来源于施乐公司帕洛阿尔托研究中心图形化用户界面的出现,只要会用鼠标操作,经过简单的训练,就可以控制计算机。到了移动互联网时代,由于触屏手机的普及,触摸式交互成为主流交互方式,从而带来了一个时代的变革。随着以Siri为代表的语音助手和以Echo为代表的智能音箱迅猛发展,CUI在越来越多的场景下变得实用。人们惊喜地发现,对话式交互以一种更自然的方式重新进入大家的视野。
图1总结了四个典型时代以及每个时代的特点。
图1 不同时代不同交互方式的特点
CUI的出现是偶然的,还是必然的?
从需求的角度,CUI的操控方式更便捷,使用门槛更低。以触控操作为主的操控方式,让人们的操作更便捷。但也发现,手机应用程序(APP)的复杂操作对老人和孩子来说门槛还是太高。而且,触控操作在不能脱手的情况下依然不方便。而CUI的交互方式更自然和更简单。
同时,随着大数据、算法和计算能力的发展,CUI的落地成为可能。
对话式交互方式的特点
有利于信息的获取,不利于信息的展现
图形用户交互界面的信息组织是立体的。信息展现在由浅到深的不同层级的页面上,一个页面到更深页面的跳转往往借助链接或按钮进行;每个页面上,信息又被组织成一个长长的信息流。这种信息组织方式的优点非常明显:第一,所有的信息都可以被完整地展示出来,所见即所得;第二,信息的层次感很明显,每个页面承载的功能相对清晰。然而,GUI的信息获取的效率却很低,在组织信息时,只能把最重要的信息集中在关注概率最大的区域,而其他不太重要的信息,往往隐藏较深,或者排在页面不太显眼的地方,导致不太常用的功能被折叠到某个角落里,用户很难找到。
和GUI相比,CUI的特点刚好反过来。CUI信息展现的效率低但信息获取的效率高。只要用户提出需求,CUI系统会立即进行需求理解,然后执行对应的指令,并直接给出结果,不需要用户再依据操作步骤,逐步走下去。在这种交互方式的操作下,信息获取的效率大大提高,操作的门槛也大幅降低。如图2所示,在GUI下,支付宝解除免密支付,需要点击10次才能完成;而如果用CUI,只需要两次交互即可完成任务。操作门槛降低,效率大幅提升。但是,CUI也有明显的缺陷。由于缺乏对应的图形用户界面,信息不能以一种有效的方式呈现,只能通过交互过程,逐渐传递给用户。
图2 CUI系统的信息获取比GUI高效
需要细粒度的个性化
CUI的目标指向性很强,会让用户感觉是在与人交流,和GUI相比,其区别明显。
1.用户希望对话是针对本人的,是个性化的。
很多人都有过相同的经历,拨打银行客服热线的电话时,只能无奈地听着电话录音从第一个按键介绍到最后一个按键。针对这种用户体验问题,某大型电商根据客户可能存在的问题,灵活地调整了菜单的顺序,得到用户好评。
2.用户在交互过程中需求差异化明显,要求交互的意图粒度足够小。
由于对话交流的灵活性,对话交互的意图粒度,普遍比GUI下功能设置的粒度小。GUI为了考虑大部分用户操作的便捷性,往往会将数个相关的操作集成到同一个页面,降低操作难度。而CUI是针对个人的,个体化差异会比较大,但往往目标比较单一,所以整个交互过程更简洁、路径更短。当然,交互粒度变小,也会导致整个交互更加多样化、复杂化,实现的难度也会增大。
3.用户的不同性格和情感将影响对话交互的过程。
人的性格特征各不相同,CUI系统的应用情景也会不同。例如,有些用户性格急躁,急于完成任务,在交互过程中会直达目标,不允许出现过多的选择和等待;而有些用户天生谨慎,在没有取得信任之前,会小心翼翼。对于后一种用户,提供尽量客观、丰富的信息,将有助于整个对话交互的展开。还有些用户是专业型的,要求提供的信息准确、权威,这类用户交互的过程,会不断经历质疑和求证。不同用户的不同性格,给对话交互带来了新的体验,同时也带来了新的问题。
需要虚拟助理化
移动互联网时代,信息和服务的组织以APP为中心,缺乏统一的访问入口。几乎每个人的手机里,都装有数十个APP。单个APP提供单个功能(如购物、打车、记账等)。各种APP之间相互独立,缺乏链接。在使用这些APP时,用户的体验也是割裂的,例如个人的通讯方式,在不同的APP里都有一份,用户往往需要学习不同的APP的使用方法,才能适应每个APP独特的设计逻辑。
在对话交互方式下,用户只需要关注自己的需求,把需求用自然语言的方式跟虚拟助手沟通,而不用考虑用哪个APP来完成任务,以及如何寻找这样的APP。虚拟助手将人从复杂的交互体验中解放出来,使用户关注自己的核心诉求,用户体验更加简洁自然。虚拟助手可以有多种产品形式,例如,场景化服务,即在安排出差的场景中,结合天气查询结果,含穿衣、雨具、交通工具、机票、酒店、餐饮等的推荐。当然,虚拟助理的技术门槛非常高,产品设计也充满了挑战性,目前还没有在市场上得到充分验证。
个性化推荐能否解决对话式交互的独特问题?
对话式交互具备图形用户交互不具备的特点,即信息展现的效率低但信息获取的效率高,对话过程极度个性化,交互形式虚拟助理化。这三个问题都充满了无穷的魅力,若能都解决会给用户体验带来极大提升。但是,采用什么技术才能解决?如何解决?这是从业者需要考虑的问题。研究发现,个性化推荐可能是解决这些问题的方法之一。
首先,个性化推荐能有效提高交互式对话的效率。由于对话的直接性,CUI在信息获取方面远比GUI分层逐级获取的方式更快更便捷,但是信息展现不方便,每次都需要用户主动发起、系统被动回应。这也使CUI在一些场合不适用。例如,新闻的分发、音频的分发等,每天产生海量的新内容,用户在不熟悉这些内容之前,无法通过主动交互的方式来获取。个性化推荐提供了很好的思路。通过对用户建模,把与用户相关的内容提前计算好,在合适的场景下展现给用户,为用户去掉了不必要的信息,降低了信息获取的难度,也提高了对话的效率。
其次,个性化推荐能满足CUI中的个性化匹配问题。CUI中有个性化独特要求的交互流程需要量身定制,需要把交互过程中的意图细化成与之相关的粒度,根据不同用户的性格特点分而治之。现有协同过滤、矩阵分解等技术,通过比较当前用户与其他海量用户行为表现上的相似性,可以比较有效地对用户进行分类,进而为不同的用户推荐相关内容,哪怕这个内容用户之前完全没有接触过。情感分析、性格分析等技术,也能帮助提升个性化匹配的精确度。
第三,个性化推荐可以辅助发现更多模式,让虚拟助手更现实。在交互式对话中,综合各种服务和内容提供商的信息,在不同场景下提供合适的体验,即虚拟助手服务,是交互式对话的一大特色。在GUI时代,这些数据和服务散落到各种APP中,用户体验是割裂的。在CUI中,信息和服务以人为中心来组织,通过深入的数据挖掘,有可能发现更多一直存在但未被发现的潜在模式。例如,把交互式推荐应用到电商导购中,如果消费者之前曾领取过优惠券,“客服”会主动告知用户有活动,往往会极大提高用户的转化率;如果消费者只是想泛泛了解某一产品,“客服”会主动介绍和比较各种商品,并给出具体的购买建议,消费者往往会直接采纳。也许在其他更多的场景中,会有更多更有意思的发现。
个性化推荐技术在对话式交互中的应用
推荐系统是个性化实现的一种经典方式,在电商购物(如阿里巴巴、亚马逊)、社交网络(如Facebook,微博)、新闻资讯(如今日头条)、音乐电影(网易云音乐、豆瓣)等领域有广泛而成功的应用。传统的推荐一般仅考虑用户对推荐对象的评分(User-item Rating),不考虑时间、地点、场景、情绪、活动状态等上下文,无法适应相对复杂的环境。而上下文感知推荐系统(Context Aware Recommender System)[1]考虑了更多的上下文场景,能结合更丰富的信息,给用户提供更准确、更有效的推荐。因此,在交互式对话中,我们建议使用上下文感知推荐系统的方式来解决CUI存在的问题。在具体实施中,大致可以分成以下几个部分。
上下文数据收集
收集CUI下的数据,是整个上下文感知推荐的第一步。通常时间、地点(城市)、个性、关注点、情绪、用户行为等上下文信息是收集的重点。以电商导购和客服为例,早、中、晚的时间段含义不同,星期几也有差异。例如,早上用户精力充沛,好奇心强,对商品品质、性能要求更高;中午相对疲惫,时间有限,讲究效率;晚上的时间比较充沛,关注的细节会比较多。
CUI下数据收集的方式也跟GUI有很大差异。GUI以隐式获取为主,即主要利用用户和系统的交互日志,获得包括浏览、点击、收藏、购买等行为[2]。而CUI下的数据获取除了隐式获取外,还可以用更直接的方式来获取[3]。例如,直接询问用户是否喜欢,提供可选项让用户选择,让用户说出期望的目标等等。
上下文数据的建模方式也会对个性化推荐的结果产生重要影响。键值对、向量模型表示非常简单,便于理解和实现;树或者层次化的模型可以表达从属逻辑关系,保留更准确的信息;贝叶斯网络可以构建推理所需要的概率框架。本体可以支持更好的形式化的描述,也方便后续的逻辑推理运算。差分上下文加权(Differential Context Weighting)[4]是一种比较新颖和实用的建模方式,可以在一定程度上改善数据稀疏的问题,加权的上下文特征对推荐结果提升也有显著帮助[5]。
用户偏好分析
用户偏好与具体的应用场景密切相关,无论是获取偏好的维度,还是获取的方法,都有很多选择。
一般来说,用户的偏好分为长期的静态信息和短期的动态信息。例如年龄、身高、体重、所在城市、婚姻状态等人口统计学数据属于相对稳定的数据,传统的推荐系统应用较多。而现在的推荐系统都尝试用更细粒度的、动态的标签来衡量用户的特点和偏好,比如,你收藏过什么,买过什么;还考虑时间维度的因素,如买过婴儿奶粉,买过学生文具等。不同的时间节点,不同的人生状态,都会导致不同的选择。对这些偏好因素考虑得越细,推荐结果会越好。
偏好分析的方式多种多样,有的基于规则或启发的方式,也有的基于统计模型的方式。在相对简单、任务单一的环境中,基于规则的方式就能得到较好的结果;而在业务复杂、灵活多变的场景下,用基于模型的方式,效果相对稳定,扩张性更强。线性分类器、决策树、贝叶斯模型、矩阵分解等都是常用的方法。
推荐结果生成
基于上下文的推荐结果生成大致可分为三种类型,(1)基于协同过滤(Collaborative Filtering)的上下文感知推荐技术,(2)基于内容的上下文感知推荐技术,(3)混合式上下文推荐技术。第一种技术的优点在于可以利用群体智慧做推荐,但也面临数据稀疏和冷启动的问题。第二种技术中,矩阵分解(Matrix Factorization)[6]、张量分解(Tensor Factorization)[1]、隐因子分解(Factorization Machine)[7]都能提供不错的推荐效果,但也存在矩阵运算计算量大、对新用户的扩展性不够好等问题。第三种技术主要考虑如何用不同的策略将两种方式进行组合,从而得到更好、更稳定的结果。最新的研究中,还出现基于隐变量和考虑序列数据特点的推荐系统,为推荐结果生成提供了新的思路[8~10]。
推荐效果衡量和反馈
评测数据集是推荐效果衡量和评估的关键。对于很多商业系统来说,这也是其取胜的法宝。一般来说,出于商业竞争和隐私保护的目的,真实数据标注和生成的评测数据集都不会轻易公开。尤其对于CUI,数据集缺失是行业面临的共同难题。因此,高质量、覆盖面广的评测数据集的建立,一定程度上会构成核心竞争力。
在评价指标方面,传统推荐系统的评价指标,例如精确率(Precision)、召回率(Recall)、均方根误差(RMSE)、平均绝对误差(MAE)等都可以用来评价推荐结果的好坏。
由于CUI的特点,对推荐结果的评价还可以从与用户交互过程中获得的反馈、判断用户交互中止时的状态、判断用户后续的行为(例如电商导购中的下单购买)等各方面,获得用户实际的评价结果。
新数据和冷启动
几乎所有推荐系统都无法避免新数据和冷启动的问题,此时探测与利用(Explore and Exploit)的作用就至关重要了[11]。在CUI中也是如此,通过与用户交互从而记录用户偏好,对推荐结果进行反馈和评价,能快速更新系统模型,进而在短期的试探之后,拿到比较好的结果。多臂赌博机(Multi-Armed Bandit problem, MAB)[11]就是一种常用的策略,能在有限资源利用的情况下,获得比较理想的结果。
小结
对话式交互作为一种更自然的交互方式,正在带来快速、有趣和坚定的改变。而个性化推荐技术将在对话式交互中充当重要的角色。而现在,这一切才刚刚开始! ■
脚注:
1中国三大互联网公司百度(Baidu)、阿里巴巴(Alibaba)、腾讯(Tencent)首字母缩写。
2 基于位置的服务(Location Based Service)。
参考文献
[1] Karatzoglou A, Amatriain X, Baltrunas L, et al. Multiverse recommendation: n-dimensional tensor factorization for context-aware collaborative filtering[C]//Proceedings of the fourth ACM conference on Recommender systems, 2010: 79-86.
[2] Baltrunas L, Amatriain X. Towards time-dependent recommendation based on implicit feedback[C]//Workshop on context-aware recommender systems (CARS¡¯09), 2009: 25-30.
[3] Hariri N, Mobasher B, Burke R. Context adaptation in interactive recommender systems[C]//Proceedings of the 8th ACM Conference on Recommender systems, 2014, 30(7): 41-48.
[4] Zheng Y, Burke R, Mobasher B. Differential Context Modeling in Collaborative Filtering[C]//Proceedings of School of Computing Research Symposium(SOCRS 2013), 2013.
[5] Zheng Y, Burke R, Mobasher B. Recommendation with Differential Context Weighting[C]//Conference on User Modeling, 2013, 7899:152-164.
[6] Baltrunas L, Ludwig B, Ricci F. Matrix factorization techniques for context aware recommendation[C]//Proceedings of the fifth ACM conference on Recommender systems, 2011: 301-304.
[7] Rendle S, Gantner Z, Freudenthaler C, et al. Fast context-aware recommendations with factorization machines[C]//Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval, 2011: 635-644.
[8] Baltrunas L, Kaminskas M, Ludwig B, et al. InCarMusic: Context-aware music recommendations in a car[C]//E-commerce & Web Technologies-international Conference, 2011, 85(5): 89-100.
[9]Hariri N, Mobasher B, Burke R. Context-aware music recommendation based on latent topic sequential patterns[C]//Proceedings of the sixth ACM conference on Recommender systems, 2012: 131-138.
[10] Koren Y. Collaborative filtering with temporal dynamics[C]//Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD’09: 447-456.
[11] Agarwal D. Recommending Items to Users: An Explore Exploit Perspective[C]//Proceedings of the 1st workshop on User engagement optimization, UEO’13: 1-2.
所有评论仅代表网友意见